La théorie des jeux pour l'établissement des contrats dans les 

réseaux interdomaines 



Dominique Barth, Boubkeur Boudaoud et Thierry Mautor 

Université de Versailles Saint Quentin 
45 Avenue des états unis, 78035, Versailles (France) 
{dominique . barth , boubkeur . boudaoud , thierry . maut or}@pr ism .uvsq.fr 

Mots-clés : réseaux interdomaines, théorie des jeux, jeux répétés, théorie d'apprentissage. 

1 Introduction 

Dans ce travail, nous montrons comment mettre en œuvre la gestion des ressources et la 
garantie de QoS (Quality of Service) dans l'interdomaine en utilisant le modèle en stock 
[lj. Dans [T], nous avons appliqué un modèle distribué pour l'établissement des SLAs (Service 
Level Agreement) entre les opérateurs pour l'achat des routes avec une garantie de QoS et des 
résultats significatifs ont été obtenus sur des topologies simples. Dans ce travail, nous appli- 
quons un modèle de jeu pour l'établissement des SLAs. Dans le modèle en stock [T], nous avons 
considéré que les clients achètent chez leurs voisins des routes avec des garanties de QoS. Cet 
achat se fait à travers la passation d'un contrat établi entre le client et son fournisseur pour la 
capacité en stock réservée sur une route à destination donnée. Cette capacité temporelle est 
disponible pendant une durée bien précise définie en unité de temps. Chaque domaine souhai- 
tant acheter une route vers une destination donnée, doit négocier avec son voisin (fournisseur) 
pour réserver une certaine capacité dans l'intervalle [cap_min, cap_max] sur cette route. La 
raison principale d'introduire cet intervalle de capacité est de permettre au client l'ajustement 
de sa capacité. Chaque route avec sa source et sa destination, correspond à un ensemble de 
contrats entre chaque paire d'opérateurs voisins, de la source à la destination. Un nœud peut 
proposer une route à ses voisins seulement s'il a une capacité disponible en stock sur cette 
route. C'est dans ce cadre qu'on parle de modèle en cascade inversée présenté dans [T]. 

2 Modèle de jeu pour l'achat des routes 

Comme chaque opérateur dans l'interdomaine n'a qu'une vision locale de la topologie du 
réseau, il n'est donc pas capable de connaître en temps réel ni le nombre de ses concurrents ou 
de ses acheteurs potentiels pour acheter ou revendre des routes, ni les caractéristiques de ces 
routes. Pour prendre en considération l'ensemble de ces contraintes, nous modélisons ce pro- 
blème par un jeu répété non coopératif à information incomplète. Le mécanisme de répétition 
que nous considérons ici, ne nous sert donc que pour la mise à jour des stratégies des joueurs, 
à la fin de chaque étape du jeu t. Une stratégie correspond à : comment un joueur fixe son 
intervalle de capacité à demander sur une route à destination donnée ? Chaque joueur fixe son 
intervalle de capacité sur une route donnée dans le but de maximiser son bénéfice et aussi dans 
le souhait de gagner devant ses concurrents s'il est en concurrence avec d'autres joueurs pour 
l'achat de cette route. 

Le réseau interdomaine est représenté par un graphe non orienté G(V, E) à (n + 1) nœuds, où 
V et E désignent respectivement les systèmes autonomes ASs (Autonomous System) et les liens 
du réseau. Pour chaque destination d, nous considérons un ensemble de joueurs J = {ji, ...,i n } 
qui correspondent à l'ensemble des nœuds demandeurs de routes vers d (la destination d n'est 
donc pas considérée comme un joueur). Nous considérons que les actions de chaque joueur 
ji sont données par l'ensemble Ai = {ai, a mj }, où chaque composante de cet ensemble 
correspond à un intervalle de capacité [cap_mini i d, cap_maxi </]. Les valeurs cap_mini^ et 



cap_maxi^ représentent respectivement la capacité minimale et la capacité maximale que le 
joueur ji demande sur la route à destination d. Ces capacités sont discrètes, finies et bornées 
supérieurement par la capacité totale cap(i) du joueur ji. Nous considérons qu'à chaque étape t 
du jeu répété, l'ensemble des stratégies de chaque joueur ji est associé à un vecteur de probabi- 
lité s\ sur l'ensemble de ses actions A4. Soit s\ = {{s\ fc )fe=i...mJ tel que s\ k est la probabilité que 
le joueur ji joue l'action k à l'étape t. Soit p l = (s*, s|) Sn) un profil de stratégies d'un jeu 
constituant à l'étape t. Tout ce que connait chaque joueur se résume aux données suivantes : 
i) S'il est traversé ou non par une certaine partie du trafic vers une destination donnée, ii) Son 
bénéfice et les caractéristiques (prix, capacité, délai et disponibilité) des différents chemins qui 
lui sont annoncés par ses voisins. Nous notons Strai le processus local stratégique sur lequel se 
base le joueur ji pour calculer sa nouvelle distribution de probabilités à l'étape t+ 1 en fonction 
de celle à l'étape t. Au niveau de chaque jeu constituant, nous appliquons l'algorithme C qui 
consiste à suivre les étapes suivantes : 

1. Chaque joueur ji fixe son intervalle de capacité selon son vecteur de probabilités Sj. 

2. Chaque joueur ji choisit la route offerte de capacité maximum dans l'intervalle [cap_min itd , 
cap_maxi^} à prix minimum. 

3. Chaque joueur ji déduit son bénéfice. 

4. Chaque joueur ji met à jour son vecteur de probabilités selon son processus local Strai. 
L'algorithme C est implementé localement au niveau de chaque joueur et calcule à chaque 
nouvelle étape (t+1) un nouveau profil de stratégies, donc p t+l = C(p t ). Nous nous sommes 
basés sur une technique d'apprentissage similaire à celle utilisée dans [2JE]. Cette technique 
appelée (Linear Reward Inaction Algorithm) est utilisée pour définir le processus stratégique 
Strai. Elle est basée sur la règle de mise à jour présentée par l'équation ([T]) : 

( s\ k -b*u\* s\ k si k^ [cap_min\ d , cap_max\ d ] 
Stroi{s\ k ) = 4 k = { t , t ' t . (1) 

[ S i,k + ° * U i * l^l^[ca P _min\ A ,cap_max t i d } S i,l Sinon 
, Benef t , — Benef_min t , ht/ / n / 

m = s f — - — t 5 1 — ■ t '■ est 1 utilité normalisée. Les variables Bene t max - r , et 

% Benêt max , — Benêt mtn. , J — *s" 

J ï,d J i.d 

Benef _min\ d correspondent respectivement au bénéfice maximal et au bénéfice minimal 
du joueur ji depuis le début du jeu jusqu'à l'itération t et Benej\ d est son bénéfice à 
l'itération t sur la route vers d. cap_min\ d et cap_max\ d correspondent respectivement 
à la capacité minimale et à la capacité maximale demandées par ji à l'étape t sur la route 
vers d. Le paramètre b £ [0, 1] est un paramètre d'apprentissage qui permet de moduler la 
vitesse d'apprentissage des différents joueurs. Nous considérons que Vs° fc S s^, s® k 7^ 0, 
cette condition permet de donner à chaque action une chance d'être choisie au départ. 

3 Conclusion 

Un simulateur a été développé en C pour tester le modèle de jeu proposé. Les résultats de 
simulations obtenus montrent que dans le cas de topologies de réseaux simples avec une seule 
destination et en introduisant des stratégies simples, le modèle converge vers des états stables 
où un nombre important d'opérateurs sont satisfaits (taux de satisfaction intéressant) et le 
choix de chaque joueur converge vers une stratégie qui est un équilibre de Nash. 
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